1
Del Recurrencia al Atención: Abordando las Limitaciones del Modelado Secuencial
EvoClass-AI003Lecture 6
00:00

Del Recurrencia al Atención: Abordando las Limitaciones del Modelado Secuencial

El modelado secuencial tradicional dependía en gran medida de Redes Neuronales Recurrentes (RNNs) y sus variantes con puertas (LSTM, GRU). Aunque revolucionarios para tareas tempranas de secuencia a secuencia, estas arquitecturas sufren problemas fundamentales de escalabilidad al manejar dependencias extensas. La introducción de mecanismos de atención proporcionó el avance conceptual esencial necesario para superar estas limitaciones y permitir sistemas modernos y altamente efectivos de procesamiento del lenguaje natural.

1. El Problema de Dependencia de Largo Alcance

En las RNN, la ruta de dependencia entre el token $t_i$ y el token $t_j$ debe atravesar todos los pasos intermedios de forma secuencial. Esto obliga a la señal de gradiente durante la retropropagación a multiplicarse repetidamente a través de matrices de pesos, lo que provoca un rápido deterioro (gradiente desapareciendo) de la señal, lo que hace casi imposible propagar información útil o señales de error a grandes distancias en la secuencia. La complejidad de la ruta es $O(N)$.

2. El Cuello de Botella del Contexto de Tamaño Fijo

Las arquitecturas estándar codificador-decodificador anteriores a la atención requerían que todo el significado de la secuencia de origen, independientemente de su longitud, se comprimiera en un solo vector de dimensión fija (el vector de contexto, $C$). Este cuello de botella limita severamente la capacidad del modelo para retener toda la información necesaria, especialmente para entradas largas o complejas, provocando una pérdida crítica de información durante la fase de decodificación.

Representación Conceptual
Question 1
Why is the dependency path length in a standard RNN considered a major limitation for long sequences?
Path complexity is $O(1)$.
Path complexity is $O(N^2)$.
Path complexity is $O(N)$, causing vanishing gradients.
It prevents the use of LSTMs.
Question 2
In pre-Attention Seq2Seq models, what component represents the 'information bottleneck'?
The softmax layer.
The recurrent cell (e.g., GRU).
The fixed-size context vector derived from the encoder's final hidden state.
The input embedding layer.
Challenge: Conceptualizing Attention's Advantage
Comparing Structural Complexity
Consider a sequence of length $N$. We want to establish a dependency between token $X_i$ and token $Y_j$.

Contrast the dependency path length required by:
  • Traditional Recurrence (e.g., LSTM)
  • Attention Mechanism (Query-Key comparison)
Step 1
How does Attention fundamentally reduce the structural complexity of establishing distant dependencies?
Solution:
Attention creates a direct, non-sequential connection between any output token $Y_j$ and any input token $X_i$ by calculating a weight based on their vector similarity ($Q_j K_i^T$). The dependency path length is effectively $O(1)$ (a direct look-up), removing the constraint of linear path traversal imposed by recurrence ($O(N)$).